AWS Glueは金食い虫

Glueは内部でSparkが動いている

「Data分析で必要な分のRAM」を用意する必要がある

GlueでのETL処理は「Sparkに合わせた形」で記載する必要がある

Scala、Pysparkを用いてGlueのETL処理（= Glue Job)を作成する

「Glueは本体がSpark」という話にまつわることはGlueの稼働時間（cost）を削減するを参照ください

Glueは「DPU」という単位でComputing Resourceを用意する

1 個の DPU (Data Processing Unit) では 4 つの vCPU と 16 GB のメモリが提供されます。

内部ではSparkが動くため「メモリ（＝RAM）」の大きさが死活問題

Pysparkで記述された「1工程」で必要なDataは全て「一度RAMに乗せる」必要がある

coding時に「この一行(=処理)はどれほどの規模のDataを対象に行うか」を考える必要がある